Guide IA

Titres :

Brainstorm

Objectifs

Rubriques

-> exemples de projet/état des lieux du paysage
-> un lexique
-> Une checklist pré-lancement de projet.
-> Un arbre de décision en fonction des moyens/ambitions des projets.
-> une “biblio”/contacts/liste d’outils

Lexique

=> parler de la définition d’intelligence artificielle

Ressources externes

Exemples de projets

Début du guide

Lexique et définitions

Annotations

Dans un contexte IA, les annotations sont les données que l’on va utiliser pour entraîner ou réentrainer un modèle. La forme de l’annotation dépend du modèle que l’on veut entraîner ou réentrainer. La transcription d’une zone de texte est une annotation dans un contexte d’OCR/HTR. Un “tag” associé à l’image est une annotation pour un modèle de classification. Une zone délimitée sur une image est une annotation pour un modèle de segmentation. Obtenir des annotations de qualité est un enjeu primordial dans n’importe quel projet IA.

ChatBot ou agent conversationnel

Un chatbot est un logiciel conçu pour interagir avec un utilisateur au travers d’échanges textuels ou vocaux. Cette technologie préexiste aux LLMs et à l’émergence de l’IA mais a passé un cap en étant associés à des LLMs. Grâce à eux le chatbot peut converser avec l’utilisateur dans un langage naturel. C’est probablement l’application de l’IA la plus connue du grand public. Un chatbot IA est souvent nommé d’après le modèle qui le fait fonctionner.
Ex : ChatGPT, Le Chat (Mistral), Claude, Gemini…

Computer vision

La Computer Vision ou vision par ordinateur en français, sont l’ensemble des technologies permettant l’interprétation d’images par une machine. L’OCR, l’HTR, la segmentation d’images ou encore la détection d’objets sont des applications possibles de Computer Vision.

Entraînement/réentrainement

L’entraînement est le moment où l’on commence à alimenter en données un algorithme ou modèle pour qu’il se modifie jusqu’à atteindre les résultats qu’on désire. Un entraînement peut se faire à partir d’informations fournies par un humain (approche supervisée) ou sans intervention extérieure (approche non supervisée). Cette étape demande une puissance de calcul (et donc une quantité de GPUs) considérable. Le réentraînement est le fait de faire subir un nouvel entraînement à un modèle existant pour le modifier et l’adapter à nos besoins spécifiques.

Finetuning

Le finetuning est l’ensemble des manipulations que l’on fait sur un modèle pour améliorer ses résultats. Le finetuning peut passer par la modification de paramètres, d’un prompt, ou encore par un réentraînement.

GPU

Un GPU, ou Graphic Processing Unit est une unité de calcul assurant les fonctions de calcul d’image. Originellement les GPUs ont été développés pour les jeux vidéos et le calcul de déplacements en 2 ou 3 dimensions. Avec l’émergence de l’IA, la communauté scientifique s’est rendue compte qu’ils étaient bien plus efficaces pour le calcul des vecteurs qu’utilisent la plupart des modèles d’IA que les CPUs (ou processeurs) traditionnels de nos ordinateurs. L’utilisation de GPUs accélère grandement le traitement par IA de données. Avoir un GPU est même nécessaire pour les modèles les plus lourds et les entraînements/réentraînements. Le GPU est le coeur de ce qu’on appelle plus couramment les cartes graphiques.

LLM

Un LLM, ou grand modèle de langue, est un modèle IA possédant un grand nombre de paramètres et capable de communiquer en langage naturel. Il est entraîné sur des grandes quantités de texte.
Un modèle de langue est un modèle probabiliste de la distribution d’éléments linguistiques (lettres, phonèmes, mots) dans une langue naturelle. Les plus connus sont des modèles génératifs qui calculent le mot suivant ou la lettre suivante dans une séquence de mots, selon un contexte, pour interagir avec l’utilisateur.
Ex : GPT-4, DeepSeek-R1, Llama-3 …

Modèle IA

Un modèle IA est un algorithme capable (avec plus ou moins d’efficacité) d’effectuer un ensemble de tâches pour lesquelles on l’a entraîné. Il reçoit un type de données en entrée, et en propose un autre en sortie. Le terme “modèle” s’applique en IA peu importe le domaine. On appelle un modèle qui peut recevoir plusieurs types de données en entrée (par exemple texte ET image), un modèle multimodal. On distingue aussi généralement les modèles spécialisés, capables de réaliser une unique tâche (par exemple détecter les visages sur une image), des modèles généralistes capables de réaliser des tâches très variées (comme la plupart des LLMs). Les modèles spécialisés requièrent habituellement moins de puissance de calcul que les généralistes.

Ex : YoloV8 reçoit une image en entrée, et propose les coordonnées et le nom d’objets détectés sur l’image en sortie. Tesseract-ocr reçoit une image de texte imprimé et propose une transcription en sortie.

OCR/HTR

OCR (pour Optical Caracter Recognition) et HTR (pour Handwritten Caracter Recognition) sont les noms données à la transcription automatique de texte imprimé (pour l’OCR) et manuscrit (pour l’HTR). L’OCR est une technologie ancienne qui a émergé dès les années 1960 pour des tâches comme le tri du courrier.
Ex : Tesseract-ocr, pero-ocr, monkey-ocr…

Post-correction

La post-correction est le travail que l’on fait après l’application d’un modèle d’IA pour rattraper les erreurs qu’il commet. Selon les situations la post-correction sera nécessaire ou non. Selon les situations elle peut également être automatisée par IA.

RAG

Le RAG (ou Retrieval Augmented Generation) est une méthode permettant de donner de grosses quantités d’informations à une IA type LLM. Pour cela l’utilisateur va transformer en une base de vecteurs abstraits les données qu’il ou elle veut fournir à son IA, ce qui permettra à l’IA de prendre en compte une plus grande quantité d’informations que si elles étaient fournies en langage naturel. Cette technique permet notamment de doter des LLMs de connaissances plus précises dans un domaine particulier.

Exemples de projets de traitement d’images par IA

AUTOMATA

AUTOMATA, est une initiative européenne, à laquelle l’INRAP française est associée, qui vise à automatiser entièrement le processus de numérisation et de documentation de vestiges archéologiques lithiques et céramiques. Le projet inclut tout un volet robotique et mobilise des modèles IA pour analyser les objets traités et fournir facilement une grande quantité de données sur des corpus homogènes aux archéologues.
Pour plus d’information sur le projet AUTOMATA : https://www.inrap.fr/automata-experimentation-de-numerisation-enrichie-automatisee-de-vestiges-20056

EIDA

Le projet ANR EIDA, porté par le LIGM de l’école des Ponts et le SYRTE de l’observatoire de Paris. Ce projet a permis de mettre au point une plateforme (appelée Aikon) pour identifier et rapprocher des diagrammes astronomiques similaires dans des manuscrits eurasiens à travers les époques. L’IA a principalement été mobilisée pour extraire des diagrammes de manuscrits, puis identifier les diagrammes semblables. La diversité des sources mobilisées par le projet a forcé à des adaptations et à une représentation desdits diagrammes dans un espace vectoriel, pour que leur taille réelle soit ignorée par l’algorithme de similarité. La plateforme Aikon est aujourd’hui accessible en open-source, elle a depuis été améliorée pour les besoins d’autres projets.
Pour plus d’informations sur le projet EIDA : https://eida.hypotheses.org/

GallicaPix

Le projet GallicaPix est un projet de la BNF, visant à faciliter la recherche dans les collections d’images de Gallica en mobilisant des outils IA. L’IA permet dans le cadre de ce projet d’affiner la recherche en déterminant le type d’objet physique qu’est l’image si la métadonnée est manquante, de lire les inscriptions sur l’image si le cas se présente, de repérer certains éléments figuratifs sur l’image, et de prendre en compte la structure de celle-ci (par exemple le découpage d’une affiche ou d’une page de journal).
Pour plus d’informations sur GallicaPix : https://gallica.bnf.fr/accueil/fr/html/gallicapix-un-nouvel-outil-dexploration-iconographique

Highvision

Ce projet ANR débuté en 2025 cherche à étudier la circulation des images des fonds des agences de presse dans les journaux du début du XXe siècle, il est réalisé en partenariat entre le laboratoire Echelles de l’université Paris Cité, le LIP6 de Sorbonne Université, le Lipade de Paris Descartes et le Service Historique de la Défense. Le projet mobilise l’IA pour retrouver les images d’agences de presses dans les journaux où elles ont été utilisées, mais aussi transcrire par exemple les commentaires de l’agence de presse, tenter d’associer les légendes attribuées par les journaux à chaque image, et même potentiellement identifier les retouches dont elles ont été la cible.
Pour plus d’informations sur le projet Highvision : https://highvision.hypotheses.org/

HikarIA

Le projet Hikaria, mené au musée Guimet en partenariat avec la société TEKLIA, a permis le développement d’une plateforme visant à mettre en valeur les photographies du Japon de la fin du XIXe siècle des carnets Dubois (17 000 images) et d’autres sources en ligne. Dans le cadre de ce projet l’IA a été mobilisée avec un grand succès pour extraire les photos des carnets numérisés et rapprocher les images se ressemblant les unes des autres. Le projet a aussi tenté d’attribuer automatiquement grâce à un LLM génératif un ensemble de “tags” aux images venant compléter les classifications faites par des humains, avec des résultats de qualité variable.
Pour plus d’informations sur HikarIA : https://hikaria.org/

TORNE-H

TORNE-H est un projet de computer vision et d’introduction de l’IA dans des collections muséales. Pendant un an le projet s’est établi sur les collections du Musée des Arts Décoratifs. Il a deux buts principaux : développer un modèle de reconnaissance par ordinateur entraîné sur la collection du designer Jean Royère afin d’identifier les modèles et les spécificités des meubles de Royère à partir de gouaches, de calques d’exécutions et de photographies noir et blanc. Et deuxièmement de former, d’informer et de formuler en des termes informatiques les besoins métiers des conservateurs et conservatrices du musée dans leur gestion au quotidien des collections. En cela, le projet explore tout aussi bien les limites matérielles qu’humaines qui entourent l’introduction de l’IA au musée, avec les enjeux que posent la dette technique d’une institution ou les exigences de scientificité du travail de conservation.

Pour plus d’informations sur le projet Torne-H : https://www.chartes.psl.eu/recherche/centre-jean-mabillon/projets-de-recherche/torne-h-traitement-dobjets-par-reconnaissance-numerique-en-environnement-humain-henrot

Ukiyo-e

Ukiyo-e est un projet de base de données d’estampes japonaises remontant à 2012. Une technologie appelée le “MatchEngine” est mobilisé dans son cadre pour retrouver des estampes similaires parmi la base de 200 000 estampes que la plateforme contient, permettant aux chercheurs et aux chercheuses d’étudier les copies et les circulations des motifs à travers l’espace et le temps. C’est un exemple typique de réalisation pour laquelle on pourrait être tenté d’utiliser un outil IA mais où ce n’était pas nécessaire.
La plateforme ukiyo-e : https://fr.ukiyo-e.org/

Checklist pré-lancement de projet :

Nous avons rassemblé ici une liste de questions importantes à se poser avant de lancer un projet IA ou de déployer une solution IA dans une institution. Il n’y a pas une bonne ou mauvaise réponse à chaque question tant les choses peuvent varier d’une situation à l’autre, mais il vaut mieux penser à des réponses avant de se lancer. De la même manière certaines questions ne s’appliqueront pas nécessaires à toutes les institutions, un musée national n’aura pas nécessairement les mêmes problématiques ou ambitions qu’un service d’archives départementales.
Nous reprendrons ici la tripartition “Personnes-Modèles-Données” proposée par la librairie du congrès américain pour organiser les questions. L’institution représentera ici l’équipe, laboratoire, musée ou autre qui se lance dans un projet IA. Les “données” seront le matériau, peu importe sa nature, sur lequel on veut appliquer un processus IA.

Les personnes

Les modèles

Les données

Ressources utiles

Le Google Machine Glossary

Lien : https://developers.google.com/machine-learning/glossary

Ce glossaire extrêmement complet, contient à peu près tous les termes et expressions relatifs au machine learning dont vous pourriez avoir besoin. Il faut noter cependant qu’il a été rédigé en anglais et que la traduction française n’est pas toujours très bonne. Destiné à des développeurs, les définitions sont également parfois complexes d’un point de vue technique.

Lexique : notions générales, de PictorIA

Lien : https://pictoria.hypotheses.org/1673

Ce Lexique, plus court que le glossaire Google, mais tout de même bien fourni, a été réalisé par Jean Christophe Carius, du service numérique de la recherche de l’INHA pour le compte de PictorIA. Il a été rédigé en français et évite donc les problèmes de traduction de celui de Google.

Le “AI framework” du laboratoire de la bibliothèque du congrès américain

Lien : https://github.com/LibraryOfCongress/labs-ai-framework

Ce Repository Github contient un guide de la Librairie du Congrès américaine consacré à l’usage de l’IA dans les institutions patrimoniales. Il découpe les problématiques de l’IA en notions simples généralisables à la plupart des usages et fournit un ensemble de fiches à remplir pour cadrer les enjeux et défis d’un potentiel projet. Ce “Framework” n’est aujourd’hui disponible qu’en anglais.

Huggingface

Lien : https://huggingface.co/

Cette plateforme mise en place par une entreprise privée sert de dépôt pour les chercheurs et chercheuses utilisant l’IA du monde entier. Elle contient des centaines de modèles IA et de jeux de données, disponibles au téléchargement. Elle permet aussi, via des appels d’API, d’intégrer directement des jeux de données ou des modèles IA à votre code.

HTR-United

Lien : https://htr-united.github.io/index.html

Cette plateforme mise en place par une équipe de l’INRIA a pour objectif de rassembler et mettre à disposition le plus possible de jeux de données utilisables dans le cadre de projets d’HTR (Handwritten Text Recognition, ou transcritpion automatique d’écriture manuscrite). Elle fonctionne sur une base participative, les datasets sont partagés par les différents projets et ensuite récupérables sur la plateforme pour être réutilisés.

The Museum + AI network

Lien : https://themuseumsai.network/

Ce site web contient les travaux d’une initiative universitaire anglaise en faveur d’un usage intelligent de l’IA dans les musées. Leur “Toolkit”, où boîte à outils, de la même manière que le “framework” de la librairie du Congrès, présente de manière pédagogique les enjeux et problématiques inhérentes à la réalisation d’un projet IA dans un contexte muséal. Si les exemples de projet donnés dans le “Toolkit” concernent plus l’application de l’IA dans un contexte de gestion du musée que des collections comme c’est le cas dans la plupart des projets que nous présentons, le cadre théorique qu’il présente reste globalement pertinent pour tout projet IA. Il n’est aujourd’hui pas traduit en Français.

Awesome AI for LAM

Lien : https://ai4lam.github.io/awesome-ai4lam/

Ce site a été créé par la communauté AI4LAM (LAM étant l’acronyme anglais de Librairies - Archives - Museums), une communauté internationale rassemblant des professionnels de ces milieux et d’informatique consacrée aux usages de l’IA dans le contexte patrimonial. Le site contient une liste très fournie de liens vers des matériaux d’apprentissage, outils, jeux de données, recommandations, publications ou encore exemples de projets consacrés à l’utilisation de l’IA dans le contexte patrimonial. Le site n’est pas traduit en français.

Liste d’outils

Cette section du guide présente un ensemble d’outils pouvait permettre de traiter des images par IA. Leurs statuts sont très variables, certains sont développés par des entreprises privées, d’autre non, certains sont open-source, d’autres propriétaires, certains sont installés en local, d’autres sur les serveurs de l’institution qui les utilise, d’autres encore une plateforme en ligne… Cette liste n’est pas exhaustive et est principalement basée sur le point commun de leur usage au sein de PictorIA et de ses partenaires.

Panoptic

Cette application a été développée par le CERES de l’université Paris Panthéon-Sorbonne. Facile d’usage, elle permet de très rapidement trier et annoter des corpus d’image massifs. Elle utilise le moteur CLIP pour rassembler des images en “clusters” sur la base de leur ressemblance où à partir de langage naturel. Les utilisateurs et utilisatrices ont ensuite la possibilité d’associer des mots clés aux images en fonction des résultats de ces manipulations, où à la main directement.
L’application est gratuite. L’application est open source. L’application ne demande pas un bon niveau en informatique. L’application ne demande pas de GPU.
Documentation de Panoptic : https://ceres.sorbonne-universite.fr/Panoptic/

Labelstudio

Cette application a été développée par l’entreprise HumanSignal, elle permet d’annoter manuellement selon différentes modalités (bounding boxes, masks, polygones…). Elle permet également de tester en direct des modèles de computer vision sur des images sans réentraînement, même si l’implémentation desdits modèles est plutôt complexe. Cette application est un bon outil pour l’annotation de corpus d’images pour l’entraînement ou l’évaluation de modèles de computer vision.
L’application est gratuite, mais l’entreprise propose une version payante avec support et hébergement intégré. L’application est open source. L’installation de l’application et l’implémentation (facultative) de modèles en son sein demandent un bon niveau technique, l’utilisation pour la seule annotation est simple. L’application ne demande pas de GPU pour les tâches d’annotation.
Documentation de LabelStudio: https://labelstud.io/guide/

Arkindex

Cette application a été développée par l’entreprise Teklia, elle permet d’appliquer différents traitements IA à des images via des workers développés par l’entreprise ou personnalisés. Les traitements en question vont de tâches d’OCR simples à des inférences LLM en passant par des détections automatiques d’objets. L’application permet également de réaliser des annotations d’images en vue du réentraînement ou de l’évaluation de modèles de computer vision. Arkindex peut fonctionner en tandem avec l’application Callico, qui permet d’organiser des campagnes collaboratives d’annotation à grande échelle.
La base de l’application est gratuite, mais l’entreprise propose de payer pour ses services de support, d’hébergement et de travail sur les workers. L’application est open source. Le déploiement de l’application demande un bon niveau d’informatique, l’utilisation des workers demande un niveau variable selon les usages, l’annotation est plutôt simple, l’annotation dans Callico est très simple. L’application demande un GPU pour la plupart des tâches.

Documentation d’Arkindex: https://doc.teklia.com/arkindex/
Documentation de Callico: https://doc.teklia.com/callico/

Aikon

Cette application a été développée en marge du projet ECR Discover par des équipes de l’école des ponts et de l’observatoire de Paris, elle est destinée à l’étude de larges corpus historiques grâce aux possibilités de la Computer Vision par IA. L’application permet ainsi d’extraire les illustrations d’images contenant illustration et texte, de chercher des motifs similaires d’un document à un autre ou encore de retrouver des motifs à partir de modèles pré-entraînés.
L’application est gratuite, avec la possibilité de demander l’accès à une plateforme de test. L’application est open source. Le déploiement de l’application est complexe, son usage est relativement simple. L’application peut demander un GPU ou non selon les modèles que l’on veut appliquer.